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基于 多 元 数据 的 城市 区 域 可 达 性 评估 模型 
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摘 要 : 城市 区 域 可 达 性 评估 一 直 以 来 是 智能 交通 领域 备 受 关注 的 热点 问题 。 传 统 的 区 域 可 达 性 评估 模型 一 般 只 支持 
GIS、GPS 等 单一 数据 作为 可 达 性 的 评估 依据 ， 无 法 避免 因 外 界 因素 的 影响 对 区 域 可 达 性 造成 的 评估 不 准确 问题 。 针 
对 此 问题 ， 以 出 租车 GPS 行车 数据 、 时 段 、 天 和 气 等 多 维 数据 作为 区 域 可 达 性 的 评估 依据 ， 构 建 了 一 种 支持 多 元 数据 的 
城市 区 域 可 达 性 评估 模型 ， 在 此 基础 上 设计 了 基于 多 维 OD 矩阵 的 多 元 数据 区 域 可 达 率 计算 方法 ， 并 将 可 达 举 作为 区 
域 可 达 性 量化 标准 以 达到 提高 可 达 性 评估 准确 性 的 目的 。 此 外 ,针对 因 传 统 GPS 数据 清洗 方法 过 于 粗糙 而 导致 的 有 效 
信息 遗漏 、 数 据 矫 正 不 准确 问题 ， 利 用 基于 统计 学 理论 的 序列 数据 清洗 方法 ， 运 用 出 租车 GPS 数据 的 速度 与 加 速度 信 
息 纠 正 潜 在 的 误差 数据 以 提高 GPS 数据 的 清洗 效果 。 实 验证 明 , 利用 提出 的 多 元 数据 城市 区 域 可 达 性 评估 模型 可 达 性 
评价 的 准确 率 提高 9.1%-37.8， 其 中 计算 的 区 域 可 达 率 的 准确 性 较 传 统 方法 提高 12.6%-35.5%， 平 均 旅行 时 间 的 准确 率 
提高 18.5%-31.6%。 
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Evaluation model of urban area accessibility based on multivariate data 


Shan Xiaochen, Qu Haicheng’, Liu Wanjun 
(School of Software Liaoning Technical University, Huludao Liaoning 125105, China) 


Abstract: The assessment of urban accessibility has always been a hot topic of concern in the research field of smart 
transportation. The traditional regional accessibility assessment model generally only supports the single dimension data of GIS 
or GPS as the basic data for the assessment of accessibility, so it is impossible to avoid the problem of inaccurate assessment of 
regional accessibility due to the influence of external factors. Aiming at this problem, this paper constructs a city area 
accessibility evaluation model to support multivariate data using the multidimensional data such as GPS vehicle traffic data, 
time and weather as the basis of regional accessibility. On this basis, the calculation model of the region accessibility ratio based 
on multidimensional OD matrix is designed in this work which is used as the quantitative methods of regional accessibility to 
achieve the purpose of improving the accuracy of accessibility assessment. In addition, to solve the problem of traditional GPS 
data cleaning method, such as effective information missing and inaccurate data correction, which is caused by its over- 
roughness, the serial data cleaning method based on the statistical theory is applied in this model. The speed and acceleration 
information of the Taxi GPS data is considered in this data cleaning method to correct the potential error and to improve the 
GPS data cleaning effect. Experiment result shows that the accuracy of the regional accessibility calculated by using the 
multivariate data urban area accessibility assessment model proposed in this paper is 9.1% -37.8 higher than that of the traditional 
methods, and the accuracy of the regional accessibility assessment ratio and travel time are increased by 12.6% -35.5% and 18.5% 
-31.6% respectively. 
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率 格外 关注 。 很 多 城市 已 经 由 单 中 心 发 展 成 多 中 心 ， 但 是 道路 
交通 网 的 发 展 并 没有 跟 上 城市 现代 化 的 发 展 。 这 就 会 造成 部 分 
随 着 人 口 的 不 断 增长 ， 城 市 区 域 不 断 扩大 使 人 们 对 出 行 效 。 地 区 出 行 困难 ， 而 解决 出 行 困难 的 关键 就 是 发 现 这 些 出 行 不 便 
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利 的 地 区 也 就 是 可 达 性 差 的 地 区 并 分 析 造 成 可 达 性 差 的 原因 。 租车 GPS 行车 数据 、 时 段 、 天 气 等 多 维 数据 作为 区 域 可 达 性 的 
通过 改善 个 别 地 区 的 可 达 性 进而 提高 整个 城市 的 交通 通畅 水 平 。 评估 依据 ， 构 建 了 一 种 支持 多 元 数据 的 城市 区 域 可 达 性 评估 模 
且 区 域 可 达 性 的 评估 可 以 为 交通 管理 部 门 解决 交通 拥塞 、 道 型 ， 又 针对 多 维 数据 的 可 达 性 量化 问题 设计 了 基于 多 维 OD 秆 
路 建设 规划 等 问题 提供 决策 依据 。 阵 (Origin ”Destination 矩阵 ) 的 多 元 数据 区 域 可 达 率 计算 方法 。 通 
城市 区 域 可 达 性 的 评估 通常 先 将 城市 平均 分 成 若干 区 域 ， 过 建立 多 维 OD 矩阵， 结合 出 租车 GPS 数据 从 GPS 数据 中 抽 
获得 的 旅行 信息 聚 类 出 热点 (参与 旅行 频率 较 高 的 地 区 ), 包 ”出 完整 旅行 并 从 旅行 信息 的 角度 出 发 计算 区 域 可 达 率 。 此 外 ， 
含 热点 的 区 域 为 学 习 区 域 。 评 估 工 作 主 要 是 对 学 习 区 域内 的 旅 ”在 数据 清洗 方面 采用 一 种 基于 统计 学 的 有 序数 据 的 清洗 方法 B 
行 信息 进行 挖掘 ， 计 算 区 域 到 区 域 的 平均 旅行 时 间 ， 最 后 与 规 。 对 部 分 有 误 的 GPS 序列 进行 纠正 。 时段、 天 气 等 外 部 因素 的 加 
定 的 阔 值 相 比 较 ， 结 合 量 化 策略 对 可 达 性 进行 量化 。 入 可 以 进行 多 种 旅行 条 件 下 的 区 域 可 达 性 分 析 ， 通 过 控制 变量 
目前 对 于 可 达 性 的 量化 策略 主要 分 为 两 种 。 传 统 基线 模型 ” 的 方法 不 仅 可 以 测 出 区 域 的 普遍 可 达 性 ， 还 可 以 分 析出 如 “ 潮 
对 _ GIS 数据 进行 分 析 所 产生 的 可 达 性 评估 主要 是 从 一 个 区 域 。 汐 交 通 ” 等 特殊 条 件 下 区 域 可 达 性 的 变化 ， 以 及 产生 变化 的 原 
到 另 一 区 域 的 平均 旅行 时 间 的 角度 来 量化 。 在 获得 起 始 区 域 到 ” 因 。 这 可 以 为 道路 建设 ， 交 通 指 挥 提供 诸多 关键 信息 ， 进 而 提 
所 有 目的 区 域 的 平均 旅行 时 间 后 再 取 平 均 旅行 时 间 的 平均 值 从 ”高 人 们 的 生活 工作 效率 。 

而 评估 该 区 域 的 可 达 性 ， 但 是 这 种 基线 法 在 求 区 域 间 平均 旅行 到 

时 间 时 是 用 区 域 间 的 直线 距离 除 以 平均 速度 而 得 到 的 时 间 。 :NR 

此 其 计算 的 时 间 会 有 误差 ， 这 只 适用 于 旅行 路 线 接近 于 直线 的 可 达 性 最 初 被 定义 为 交通 网 络 中 每 一 区 域 可 以 与 其 他 区 域 
情况 。 但 在 实际 旅行 中 ， 大 多 数 行车 路 线 都 长 于 起 止 点 间 直 线 。 ”进行 通信 的 机 会 大 小 , 后 来 shen” 等 人 从 城市 空间 的 角度 出 发 
距离 ,因此 传统 基线 法 对 区 域 可 达 性 的 评估 存在 着 必然 的 误差 。 ”认为 可 达 性 与 市 民 的 社会 经 济 活动 以 及 这 些 活动 的 地 理 关系 密 
随 着 卫星 定位 技术 的 普及 , 各 大 城市 的 出 租车 均 已 安装 GPS 系 切 相关 ， 区 域 可 达 性 恰 可 以 衡量 这 些 地 理 关系 的 关联 程度 。 随 
统 用 于 指挥 调度 与 数据 分 析 。 出 租车 GPS 数据 可 以 反映 出 一 个 ” 着 可 达 性 概念 被 不 断 的 完善 ， 目 前 可 达 性 可 以 被 普遍 认为 是 在 
城市 的 旅行 分 布 ， 出 租车 司机 在 载 客 过 程 中 往往 会 凭借 经 验 选 ” 某 种 运输 系统 或 某 些 运输 方式 下 ， 使 个 体 达 到 目的 地 的 容易 程 
择 出 最 省 时 的 路 线 。 这 可 以 避免 路 线 选择 对 可 达 性 造成 的 影响 。 ”上 度 和 外。 区 域 可 达 性 被 认为 是 衡量 城市 效率 的 一 种 方法 ， 被 / 


[= 


为 了 降低 GIS 数据 只 能 产生 直线 距离 而 对 可 达 性 造成 的 误差 ， 应 用 于 交通 领域 。 

对 于 可 达 性 的 研究 逐渐 采用 面向 GPS 数据 的 分 析 方 法 。 对 GPS 对 区 域 可 达 性 的 研究 可 以 使 用 地 理 信 息 系统 对 可 达 性 进行 
数据 进行 分 析 是 从 可 达 热 点 的 数量 这 一 角度 来 量化 ， 以 可 达 热 。” ”预测 [1 引 ,地 理 信息 系统 是 以 搜索 最 短路 径 为 前 提 ， 并 对 产生 的 
点 的 个 数 来 表示 可 达 性 ， 最 为 代表 的 算法 为 轮廓 测量 法 中。 该 ” 最 短 时 间 进 行 加 权 。Novak 等 人 外 使 用 个 人 信息 数据 对 不 同时 段 


数 

方法 普遍 认为 当前 研究 的 学 习 区 域 到 另 一 个 学 习 区 域 的 平均 旅 。” 的 可 达 性 进行 计算 。 这 可 以 更 加 真实 地 反 鲜 在 不 同时 间 段 内 旅 
行 时 间 只 要 大 于 城市 平均 旅行 时 间 ， 则 认为 涉及 到 的 目标 区 域 。 行路 线 与 旅行 时 间 的 关系 ， 但 需要 大 量 的 个 人 信息 数据 才能 计 
的 所 有 热点 对 于 当前 的 起 始 学 习 区 域 都 是 不 可 达 的 ， 反 之 所 有 ” 算出 人 群 普遍 的 旅行 分 布 ， 才 能 使 得 评估 结果 上 共有 代表 性 。 
热点 全 是 可 达 的 。 虽 然 这 种 方法 可 以 估计 出 可 达 性 明显 较 好 或 如 今 出 租车 GPS 已 被 普及 , 由 于 其 易于 解释 区 域 间 的 沟通 ， 
者 明显 较 差 的 区 域 ， 但 是 每 个 区 域 与 其 他 区 域 连 通 的 热点 个 数 ”而 且 可 用 的 数据 量 大, 出 租车 GPS 数据 已 被 广泛 应 用 于 城市 规 
与 旅行 时 间 都 各 不 相同 ， 显 然 这 种 方法 对 于 旅行 分 布 不 均 以 及 ，” 划 [、 地 理学 研究 5 、 旅 游 需 求 的 建 模 55 和 旅行 时 间 的 估计 
可 达 性 好 坏 不 明显 的 区 域 的 评估 效果 较 差 。 此 外 ， 现 有 的 城市 。 [ 岁 等 领域 。Laha05l 等 人 经 研究 表明 ， 对 出 租车 GPS 数据 经 
区 域 可 达 性 的 研究 主要 采用 一 元 数据 如 GIS 数据 或 GPS 数据 ”过 计算 及 知识 挖掘 后 ， 可 得 到 路 段 旅程 时 间 、 路 段 平均 速度 和 
进行 建 模 分 析 。 其 构建 的 模型 只 能 支持 一 维 数据 处 理 ， 因 此 无 ”道路 拥塞 程度 等 信息 ， 还 可 以 获知 司机 选 则 的 路 线 的 倾向 以 及 
法 避免 因 时 间 、 天 气 等 外 部 因素 的 影响 对 可 达 性 评估 造成 的 误 ”乘客 乘 降 的 密集 地 点 等 信息 ， 进 而 反映 城市 交通 流 的 信息 ， 既 
差 。 帮助 乘客 了 解 出 行 信 息 ， 又 帮助 司机 优化 导航 路 线 。 除 此 之 儿 

为 了 缩小 因 可 达 性 的 量化 方法 而 产生 的 误差 ， 本 文 利用 数据 还 被 用 于 设计 夜班 巴士 线 等 交通 热线 1061 通 
域 可 达 率 作为 可 达 性 的 量化 标准 ， 即 由 该 区 域 出 发 的 所 有 旅行 ff 单 向 或 双向 路 线 流 ， 设 计 夜 班 巴士 总 线 。 
中 ， 旅 行 时 间 在 阔 值 范围 内 的 旅行 次 数 占 总 次 数 的 比例 。 以 基于 出 租车 GPS 数据 的 分 析 方 法 通常 被 认为 更 加 适合 于 
域 可 达 率 来 量化 区 域 可 达 性 不 仅 可 以 提高 传统 轮廓 测量 法 的 准 ”预测 运输 计划 的 可 实现 程度 以 及 评估 区 域 可 达 性 。 基 于 出 租车 
确 性 ， 而 且 考 虑 到 区 域 的 旅行 分 布 特点 可 以 避免 轮廓 测量 法 对 ”GPS 的 方法 核心 是 对 旅行 时 间 的 挖掘 与 学 习 。 对 于 可 达 性 的 量 
旅行 分 布 不 均 的 区 域 产 生 错 误 估 计 。 而 且 从 GPS 数据 中 抽取 出 化 方式 可 以 用 区 域 间 的 平均 旅行 时 间作 为 衡量 标准 。 也 可 以 以 
的 旅行 不 需 考虑 旅行 路 线 ， 只 计算 旅行 起 点 与 终点 的 时 间 差 便 。 ”速度 恒定 ， 距 离 加 权 的 方法 计算 旅行 时 间 及 可 达 的 热点 数 来 量 
可 计算 出 准确 的 旅行 时 间 ， 克 服 了 传统 基线 法 依赖 平均 旅行 时 。” ”化 可 达 性 。 这些 方法 只 能 支持 GPS 坐标 单一 信息 的 分 析 ， 甚 结 
间 却 无 法 准确 求 出 平均 旅行 时 间 的 弊端 。 在 此 基础 上 本 文 以 出 果 利 用 统计 学 方法 计算 估计 出 来 的 而 非 通过 数据 挖掘 方法 计算 
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得 出 。 因 此 无 法 i 


避免 因 时 间 段 、 天 气 
算 结 果 造 成 的 误差 。 
庞大 ， 原 始 GPS 数 所 
这 些 垃圾 数据 会 导致 


此 外 ， 分 析 模 型 的 
居 存 在 着 较 多 垃圾 数 提 
区 域 可 达 性 的 评估 误差 较 大 ， 因 此 对 GPS 
数据 进行 清洗 是 至 关 重 要 的 。 在 数据 量 大 的 前 提 下 ， 大 多 数 做 


法 如 CuiJX 等 人 白 对 错误 数据 采取 直接 删除 的 方法 , 这 种 方法 


部 因素 的 影响 而 对 计 


所 用 到 的 数据 规模 
如 果 不 加 以 处 理 ， 


虽然 可 以 过 滤 掉 大 量 的 错误 信息 , 但 是 


会 使 得 GPS 数据 的 连续 


性 丢失 ， 同 时 


于 过 滤 粒 度 的 设置 不 当 


站 | 


2 ”区 域 可 达 性 评估 模型 


本 文 以 出 租车 GPS 行车 数 


区 域 可 达 性 的 评 


性 评估 模型 ， 在 此 基 硬 


化 标准 来 衡量 城市 


区 域 的 可 达 程 度 。 可 
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单 晓 蝴 ， 等 : 基于 提 县 市 可 达 生 评 估 模 型 


以 此 作为 阐 值 评估 区 域 可 达 性 。 
2.1 出 租车 GPS 数据 的 筛选 与 清洗 
出 租车 GPS 数据 十 分 庞大 , 然而 其 中 不 乏 一 些 错误 的 数据 
会 干扰 区 域 可 达 率 的 预测 结果 , 这 些 错 误 数据 将 被 清除 或 修改 。 
本 文 从 以 下 三 个 方面 对 数据 进行 筛选 与 清理 : 
a) 由 出 租车 GPS 数据 可 知 出 租车 的 地 理 位 置 即 坐标 。 当 
此 条 GPS 数据 有 错误 时 坐标 记 为 0 则 证 明 该 GPS 点 不 能 被 使 


也 会 产生 有 用 信息 的 误 


虽 、 时 段 、 天 气 等 多 维 数据 作为 
依据 ， 构 建 了 支持 多 元 数据 的 城市 区 域 可 达 
1 上 设计 了 基于 多 维 OD 矩阵 的 多 元 数据 


区 域 可 达 率 计算 方法 ， 并 利用 区 域 可 达 率 作为 区 域 可 达 性 的 量 


时 间 内 区 域 Pi 到 其 余 


必 


或 可 达 率 可 以 更 客观 真实 地 反映 区 域 可 达 1 


生 的 好 坏 。 区 域 可 


生 评 估 模 型 整体 架构 如 图 1 所 示 。 


达 率 即 为 在 规定 的 旅行 
区 域 的 旅行 中 可 以 完成 的 旅行 的 比例 。 区 


这 


JS 


者 涵 亲 浅 


和 全 es 7/ 
: 1 
生成 热点 形成 00 珑 阵 训 证 
| | 融 H> 殴 | 
| | 于 可 达 
1 下 | 号 | 
We 计算 可 达 率 | 上 率 
| 
J] 达 率 预测 模型 整体 架构 
该 模型 主要 分 为 以 下 部 分 : a) 数据 预 处 理 ， 这 一 部 分 包括 


清洗 GPS 序列 、 提 ; 


东 出 完整 的 旅行 以 及 整合 多 元 数据 生成 旅行 


条 件 ;b) 区 域 可 达 率 计算 , 这 一 部 分 包括 聚 类 生成 热点 、 确定 学 


习 区 域 、 产 生 OD 和 矩 
所 有 旅行 的 起 始点 和 终点 采 
点 。 其 目的 是 把 看 似 不 相关 


台 位 置 和 终点 位 置 上 


己 


牛 


区 域 至 终点 区 域 的 道路 可 达 


j 属 性， 则 这 类 
。 模 型 将 至 少 


F、 计 算 可 达 率 结果 。 对 没有 规律 可 言 的 
用 DBSCAN 密度 聚 类 法 08 形 成 热 
的 旅行 联系 起 来 ， 使 这 些 旅 行 在 起 
旅行 便 可 反映 起 始 


包含 一 个 热点 的 区 


或 作为 学 习 区 域 。 通 过 


起 止 点 ， 同 时 可 b 


发 生 的 起 止 学 习 区 二 
最 后 利用 OD 算 阵 从 旅行 
区 域 可 达 性 ， 这 一 部 分 3 


要 包括 计算 各 


取出 的 完整 的 旅行 可 获得 旅行 的 


取 到 旅行 起 止 点 所 属 的 


热点 进而 确定 旅行 
其 他 旅行 信息 建立 多 维 OD 矩阵。 
的 角度 出 发 计算 区 域 可 达 率 ;c) 评估 


区 域 可 达 率 的 平均 值 ， 


也 不 能 被 纠正 所 以 将 这 类 GPS 点 直接 过 滤 掉 。 
b) 由 GPS 数据 可 知 相 邻 GPS 点 Gm(Cm,Tm,Sm) 和 
Gmri(Cmt1,Tmt1,Sm+t1) 间 的 速度 Van 即 


(Xm +1— Xm)” 十 (ym+1 一 ym)” (1) 
Tm +1 Tm 


当 Vm 超出 阐 值 (Vmax) 时 , 则 此 条 数据 有 误 , 应 该 被 纠正 。 
其 中 Xn，Xn+t1，ym+t1，ym 为 GPS 点 Gm(Cm,Tm,Sm) 和 
GnrHl(CnruTar5SnD 中 Cm 和 CnH 值 即 耸 标 。Tin+1 一 Tn 为 两 
GPS 间 的 时 间 差 。 对 于 两 点 间 的 速度 错误 可 以 由 统计 纠正 法 预 
测 出 正常 的 速度 ， 然 后 再 根据 预测 出 的 速度 对 坐标 信息 进行 纠 


于 


Vn = 


相 邻 的 GPS 点 还 可 求 相 邻 时 间 序 列 间 的 加 速度 am， 即 
2 Vn +1— Vm 0) 
Tmn+1— Tn 
当 加 速度 超出 六 值 (M_a) 时 ， 此 数据 被 认为 有 误 。 但 这 类 
错误 也 可 以 被 统计 纠正 法 修正 。 
c) 因 为 不 是 所 有 的 司机 都 会 为 乘客 选择 最 近 最 优 路 线 ， 
些 司 机 为 了 获 利 会 选择 较 远 的 旅行 路 线 ， 这 将 直接 增加 乘客 旅 
途 的 时 间 。 为 避免 因 绕 道 现象 和 同一 乘客 乘 同一 出 租车 先后 到 
达 不 同 地 方 而 造成 旅行 时 间 过 长 导致 的 可 达 率 较 低 的 假象 。 本 
文 以 REDUN Djowr， 即 


Rn Dare ra @) 
DIS _ec 


作为 过 滤 条 件 ,超出 闵 值 (3.5) 则 认为 此 次 旅行 不 能 真实 反 
映 交 通 情 况 ， 应 过 滤 掉 整 条 旅行 。 
其 中 DIS_ec 为 旅行 的 直线 距离 ， 即 


DIS _ec = (x — XxX) 二 (一 VD (4) 


入， 加 为 旅行 中 的 最 后 一 个 GPS 点 的 位 置 坐标 。 2 ， 
y1 为 旅行 中 的 第 一 个 GPS 点 的 位 置 坐 标 。 由 这 两 点 的 坐标 便 
可 计算 出 旅行 中 出 发 点 到 目的 地 的 直线 距离 DIS _ec 。 
DIS _real 由 旅行 中 所 有 相 邻 GPS 点 的 直线 距离 累加 得 出 ,为 
实际 旅行 所 用 距离 即 


DIS _real = > (Xt+1— Xt) + (Yeti yt) 5) 
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2.2 ”多 元 旅行 数据 结构 
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表 1 变量 type 的 种 类 及 意义 
每 一 辆 出 租车 每 一 天 都 会 产生 大 量 GPS 位 置 坐 标点 , 这 些 type 意义 DAY_T/TIME_T/WEATHER 
点 中 包含 了 很 多 条 旅行 。 WMF 工作 日 /7:00-9:00/ 睛 WN 
定义 1 旅行 trip 指 每 位 乘坐 出 租车 的 旅客 所 经 历 的 旅途 。 工作 日 9:00_12:00/ 睛 a 
旅行 包括 起 止 位 置 坐标 、 旅 行 总 时 长 、 旅 行 发 生 的 日 期 、 旅 行 人 作 日 12:00-16:00/ 哺 1/31 
所 经 历 的 路 程 。 WEF 作 日 /16:00-19:00/ 晴 1/4/1 
这 类 旅行 可 以 看 成 是 由 一 系列 满足 时 间 序 列 的 GPS 点 组 WBF 工作 日 49:00- 次 日 7:00/ 哺 je 
成 的 。 本 文 定义 GPS 点 的 结构 为 G(C,T,S), GPS 轨迹 可 以 被 表 VME 非 工作 日 7:00_9:00/ 哺 on 
示 为 GI(C1,T,S1) …Gm(CmTm,Sm) …Gr(Cn,TnSn)。 其 中 C 为 VNF ” 非 工 作 日 人 9:00-12:00/ 晴 0211 
GPS 位 置 坐标 ，T 为 时 间 ， S 为 0 代表 出 租车 空 载 ,为 1 代表 VAF 。，。 非 工作 日 /12:00-16:00/ 睛 0311 
车 内 有 乘客 ， 出 租车 已 被 占用 。 出 租车 每 隔 一 段 时 间 产 生 一 个 VEF 。” 非 工 作 日 /16:00-19:00/ 晴 O41 
GPS 数据 ， 而 一 次 旅行 共产 生 次 GPS 数据 , 所 以 下 标 取 值 为 VBF 。 非 工作 日 /19:00- 次 日 7:00/ 哺 00511 
1 到 n。 为 了 提取 出 每 一 条 旅行 中 有 价值 的 信息 ,本 文 以 OD 矩 ee 工作 日 7:00-9:00/ 十 1/1/0 
阵 为 原型 构建 一 种 数据 结构 来 表达 旅行 信息 , 即 4 维 OD 和 矩阵 。 NNR 工作 日 虽 :00_12:00/ 击 yt 
4 维 OD 矩阵 各 维度 示意 图 如 图 2 所 示 。 第 一 维和 第 二 维 分 别 。 wak Pt pe 
为 起 始 区 域 和 目的 区 域 ， 将 整个 城市 平均 分 为 WXZ 个 区 域 用 WER 作 日 /16:00-19:00/ 十 1/4/0 
P; 表 示 起 始 区 域 (i 属于 1……W XZ),，P; 表 示 目 的 区 域 (j 属 WBR 工作 日 /19:00- 次 日 7:00/ 十 1/5/0 
于 1……WXZ)。 第 三 维 旅行 条 件 ， 因 为 同一 地 区 的 道路 可 达 非 工 作 日 7:00-9:00/ 十 Bn 
率 在 工作 日 与 非 工 作 日 里 是 不 同 的 ， 在 同一 天 的 不 同时 间 内 也 本 非 工 作 日 入 :00-12:00/ 十 0/2/0 
是 不 同 的 ， 且 天 气 因 素 也 会 影响 交通 区 域 可 达 率 ， 因 此 矩阵 的 VAR ” 非 工 作 日 /12:00-16:00/ 十 3 
第 三 维 包 含 了 多 元 旅行 信息 如 DAY_T=0， 代 表 非 工作 日 ; VER 非 工作 日 /16:00-19:00/ 十 0/410 
DAY_T=1, 代表 工作 日 。TIME_T 来 表示 一 天 内 的 不 同时 间 段 (如 VBR ” 非 工 作 日 /119:00- 次 日 7:00/ 十 0/5/0 
以 下 五 个 时 间 7:00-9:00， 9:00-12:00, 12:00-16:00，16:00- 
19:00, 19:00- 次 日 7:00 ); WEATHER=0 代表 有 雨 ; WEATHER=1 代 图 2 中 底层 平行 四 边 形 为 OD 矩阵 第 一 维 信息 起 始 区 域 和 
表 天 睛 。 上 述 三 个 条 件 DAY_T， TIME_T， WEATHER 的 不 同 取 值 。 第 二 维 信息 目的 区 域 ， 红 色 菱 形 框 为 第 三 维 信息 旅行 条 件 。 绿 
可 以 组 成 20 种 不 同 旅行 条 件 (例如 晴天 工作 日 的 早上 , 雨天 休 ” 色 萎 形 框 表示 第 四 维 信息 旅行 信息 包含 旅行 时 间 , 旅行 的 路 程 ， 
息 日 的 晚上 等 ) type。type 的 种 类 及 意义 见 表 1。 第 四 维 是 具 ”以 及 旅行 日 期 由 GPS 数据 抽取 出 旅行 信息 的 具体 算法 见 算法 
体 的 旅行 信息 包含 旅行 时 间 、 实 际 旅行 距离 、 旅 行 日 期 等 。 1《〈 伪 码 )。 
TIMEiu 来 表示 此 次 旅途 所 用 的 总 时 间 ， 即 算法 1 旅行 信息 获取 算法 
TIMEjour = Tn—T! (6) 输入 : GPS 数据 GPS[j] 
其 中 :Tl ，7T 为 一 次 旅行 中 记录 的 GPS 信息 的 起 始点 时 间 和 输出 : 各 旅行 条 件 下 的 旅行 信息 on[m], off[m], Tl[m], 


终止 点 时 间 。 


__tripl (TIMEjour,DAY,DIS-real)— 


SA 
Sn 


tripn (TIMEjour,DAY,DIS-real) _— 


Se 2 


区 


目的 区 域 


对 


2 4 维 OD 和 矩阵 示意 


DAY 代表 此 次 旅行 的 


所 掌握 的 实际 GPS 


期 , 取 值 范 围 


数据 量 而 定 ， 在 此 数据 结构 中 起 到 主键 的 作用 即 确定 每 次 旅途 


的 唯一 性 。 由 此 OD 义 


E 阵 可 写作 (Pi, Pi type, trip 。) 


T2[ml, TIMEiour[m] 


m=0; 


// 记 录 旅 行 开 始 的 位 
T1[m]= GPS[i+1].T; 


} 


/旅行 计数 器 
for(i=0;GPS[i]!=null;i++) 
{ if(GPS[i+1].S==1 和 人 GPS[i].S==0) 
// 开 始 载 客 的 GPS 点 
{on[m]=GPS[i+1].C; 


坐标 


/记录 旅行 


于 始 的 时 间 


else if(GPS[i].S==1 A GPS[i+1].S==0) 
/开始 和 扼 客 的 GPS 点 


{oftrm]l=GPS[il.C;/ 记录 旅行 结束 的 位 置 坐标 


T2[m]= GPS[i].T; 。// 记录 旅行 结束 的 时 间 
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TIMEjow[m]=T2[m]-T1l[m]; // 旅 行 时 间 
In 十 十 ; 


? 


} 
} 


算法 1 以 一 台 出 租车 为 例 首先 通过 GPS 的 状态 位 s 判断 
租车 开始 载 客 的 点 ， 进 而 得 出 旅行 开始 的 时 间 、 位 置 、 天 气 、 
继续 搜索 后 续 GPS 点 的 状态 位 s 


Tt 


以 及 是 否 为 工作 日 等 信息 。 


得 出 旅行 结束 的 时 间 、 位置 以 及 旅行 时 段 。 当 出 现 前 一 GPS 点 
的 状态 位 为 0 而 后 一 状态 位 为 1 时 可 确认 后 一 GPS 点 为 新 旅 
行 的 起 始点 。 当 出 现 前 一 GPS 点 的 状态 位 为 1 而 后 一 状态 位 为 


0 时 可 确认 前 一 GPS 点 的 为 新 旅行 的 终止 点 。 
2.3 ”确定 学 习 区 域 


为 了 方便 对 城市 区 域 可 达 性 的 研究 ,首先 将 城市 分 为 WX 


Z 个 区 域 。 然 后 再 从 众多 GPS 点 中 抽取 出 完整 的 旅行 ， 每 一 条 


旅行 的 起 始点 与 终点 杂乱 无 章 的 分 散 到 各 区 域 中 。 但 也 不 是 每 
个 区 域 都 包含 旅行 的 起 点 或 终点 的 如 河流 、 建 筑 、 公 园 等 区 域 


不 可 能 包含 旅行 信息 ， 因 此 不 研究 这 类 对 区 域 可 达 性 没有 
的 区 域 。 还 存在 一 些 区 域 虽然 包含 旅行 ， 


么 这 样 的 区 域 也 是 没有 研究 价值 的 。 于 是 应 当 从 所 有 的 区 域 


价值 
胆 旅 行 次 数 过 少 ， 居 


Bb 


确认 出 有 研究 价值 的 学 习 区 域 。 一 个 区 域 包 含 旅行 的 起 点 或 终 
点 足够 多 则 该 区 域 是 有 价值 的 可 被 选 为 学 习 区 域 。 在 乘 降 点 数 


x 域 中 只 要 包含 


任意 区 域内 。 当 某 一 小 范围 


chinaXiv 


量 足 够 多 的 情况 下 相 邻 的 所 有 乘 降 点 可 以 认为 是 一 个 热点 。 各 
区 个 热点 ， 就 可 以 被 选 作 学 习 区 域 。 本 文 以 聚 
类 的 方法 产生 热点 ， 热 点 为 发 生 旅 行 较 密 集 的 地 点 。 旅 途 实际 
是 由 起 始 坐标 和 终点 坐标 所 确立 ， 然 而 这 两 个 坐标 可 以 出 现在 
内 旅行 起 始点 和 终止 点 次 数 达 到 一 


定 阔 值 时 则 符合 聚 类 条 件 ， 这 样 此 范围 就 会 被 聚 类 为 热点 。 通 
过 判断 之 前 划分 的 区 域 是 否 包 含 热点 来 确定 学 习 区 域 。 确 认 学 


区 域 的 具体 算法 见 算法 2〈 伪 码 )。 
算法 2 确立 学 习 区 域 
输入 : 所 有 旅行 的 起 止 点 on[ml],off[m] 
输出 : 学 习 区 域 learn[learn_A] 

TD=and(on,off);// 将 旅行 的 起 止 点 
hot[i]j=DBSCAN(TD,E, MINDP); 

h#* 由 DBSCAN 密度 聚 类 发 求 热点 , 其 中 下 为 聚 类 时 的 扫 


为 一 个 集合 


半径 ;MINp 是 密度 阔 值 */ 

learn A=0; // 计 数学 习 区 域 个 数 
plregion*x+y]=0; 

// 将 所 有 区 域 包含 热点 的 初始 值 设 
for(i=0;hot[i]!=null;i++) 


{ x=floor(hot[i].x); 


为 0 


y=floor(hot[i].y); 
plregion*xt+y]+t+; 
/发 现 包含 热点 的 区 域 ， 并 记录 目 / 前 包含 热点 的 个 数 


} 


forO=0;j< regionx* region;j+t+ 


Moat 
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{if(p[j]>0) 

{learn[learn Al]=j; 

// 重 新 编号 学 习 区 域 

learn _ A++; 

} 


} 
算法 2 首先 假设 已 被 划分 好 的 WXZ 个 区 域 中 和 区 域 包含 


0 个 热点 , 再 以 DBSCAN 这 一 聚 类 方法 利用 区 域 间 发 生 旅 行 的 


起 止 
标 可 
加 。 


坐标 聚 类 出 热点 。 比 较 向 下 取 整 后 的 热点 坐标 与 区 域 的 坐 
得 出 该 热点 属于 哪 一 个 区 域 ， 并 使 区 域 所 包含 的 热点 数 增 
最 后 查找 所 有 热点 数 不 为 0 的 区 域 将 其 确定 为 学 习 区 域 ， 


为 
2.4 


其 余 区 域 的 完成 程度 ， 也 就 是 该 区 域 在 规定 
了 数量 占 由 该 区 域 始 发 的 所 有 旅行 的 比重 ， 可 完成 的 次 数 越 


成 的 
率 。 


确定 的 学 习 区 域 标 号 。 
建立 可 达 率 计算 模型 
往 域 道路 可 达 率 是 在 规定 的 旅行 时 间 范 围 内 ， 区 域 Pi 到达 
的 时 间 内 可 完成 的 


区 域 的 可 达 率 也 就 越 高 ， 可 达 性 也 就 越 好 。 可 达 率 的 计算 
分 为 两 部 分 ，4 维 OD 矩阵 的 构建 以 及 利用 4 维 OD 矩阵 


利用 选择 出 的 学 习 区 域 生 成 OD 矩阵 ， 形 成 由 学 习 区 域 组 
非 稀疏 矩阵 ， 以 方便 对 旅行 进行 分 析 与 挖掘 并 提高 运算 效 
OD 算 阵 的 生成 见 算法 3〔 伪 码 )。 

算法 3 建立 OD 矩阵 
输入 : 旅行 信息 trip[m] 

输出 : 0D 矩阵 OD[D][TY][Kry] 
OD[Lear_ Al][ Learn Al[20][]; 


for(i=0,1< Learn_A,i++) 


{for(m=0;m<length(on);m++) 
{if(floor(on[m].x)*regionx+floor(on[ml.y)=learn[i]) 
/查找 由 学 习 区 域 i 始 发 的 旅行 


{for(n=0;n<Learn Ain++) 


if(learn[n]=floor(off[m].x)*regionx+floor(off[m].y)) 


/查找 当前 选中 旅行 的 目的 区 域 所 对 应 的 学 习 区 域 
j=n; 加 为 目的 学 习 区 域 
} 


itype.weather[mj=w and type.workday[m]=d and 


period[m]=iod)/w、d、iod 代表 三 种 旅行 条 件 的 组 


// 合 每 一 种 组 合 对 应 一 个 TY 值 
OD 和 中 [TY]J[KrYy]=trip[m];/XTY 取 值 为 0-19, 将 对 应 的 trip 


记录 到 对 应 旅行 条 件 下 的 Kry 中 */ 


以 后 
阵 的 


Kry Es 

} 

} 

算法 3 的 主要 功能 是 抽取 出 的 旅行 合理 的 存储 起 来 ， 方 便 
的 计算 。 由 算法 1 得 出 的 旅行 信息 和 旅行 条 件 作为 OD 和 矩 
3、4 维 信 息 正 确 的 存储 到 OD 矩阵 中 。 和 矩阵 的 1、2 为 信 
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Ginaxiy 合 作 基 于 | 


录用 稿 单 晓 晨 ， 等 : 基于 多 元 数据 的 城市 区 域 可 达 由, 


息 是 旅行 的 起 止 区 域 ， 这 由 算法 2 确定 

传统 的 轮廓 计算 方法 就 是 计算 区 域 可 达 热 点 数 并 以 此 评估 
区 域 可 达 性 。 传 统 的 轮廓 预测 法 先 计 算 区 域 Pi 在 特定 的 旅行 条 
牛 t 下 到 达 各 个 区 域 的 热点 总 数 计 为 Ac _i， 即 


nAtype(t) 
Aci= 2 (a O) 


J=1,TIMEij<TM _ max 


其 中 : 4 为 区 域 Pj; 中 在 满足 旅行 条 件 t 时 所 涉及 的 目的 区 域 的 
热点 数 。type(t) 为 旅行 条 件 的 类 别 ， TiM5ij 为 区 域 P 到 Pi 所 有 
旅行 的 平均 时 间 ， 即 


countoDij 
> TIMEjour 


TIMEy- 守 中 


Countopi 


countopi 为 区 域 i 至 区 域 j 的 旅行 次 数 , 可 从 0D 矩阵 中 获 
取 。7TM _mx 为 规定 的 旅行 时 间 范 围 的 上 限 。 

再 计算 区 域 Pi 在 所 有 旅行 条 件 下 到 达 各 个 区 域 的 热点 总 数 
计 为 Ac_;， 即 


J 


20 
4c_i=>》4c， (9) 

二 I 
以 Ac _ ;作为 区 域 Pi 的 可 达 热 点 数 最 终 以 Ac ;的 值 
来 评估 区 域 可 达 性 。 
式 (9) 中 的 Ac ;是 传统 轮廓 测量 法 对 区 域 Pi 的 可 达 性 量 


了 旅行 条 件 下 的 综合 可 达 率 记 为 4cp -+:， 即 


py a1) 


Acp_i= 了 刁 
Countop: 


区 域 pi 出 发 的 所 有 旅行 的 数量 。 


用 区 域 可 达 率 量化 可 达 性 可 以 降低 区 域 可 达 性 对 平均 旅 


。 尽 管 平均 旅行 时 间 小 于 〈 大 于 ) 7M -mx ， 但 仍 
时间 大 于 (小 于 ) TM _mx ， 而 4cp ,是 两 区 域 
合 时 间 要 求 的 旅行 占 两 区 域 间 发 生 的 所 有 旅行 的 
所 以 Acp-_i 较 Ac_i 可 以 更 好 地 代表 区 域 的 可 达 性 。 除 此 
之 外 考虑 到 热点 的 产生 是 由 各 区 域 发 生 的 所 有 旅行 共同 聚 类 而 
个 区 域 对 热点 的 产生 作出 的 贡献 都 不 一 样 ， 即 不 同 区 
域 对 热点 的 关联 性 是 不 一 样 的 。 并 且 每 个 区 域 的 活动 量 及 主 
句 也 不 一 样 ， 因 此 会 出 现 一 些 区 域 尽管 大 多 数 旅行 都 可 
的 
能 认为 这 些 区 域 可 达 性 差 。 而 本 文 提 出 的 方法 则 是 
发， 计算 区 域 pi 中 满足 旅行 时 间 的 旅行 占 pi 所 
以 此 量化 区 域 可 达 性 ， 这 样 可 减少 
We 更 客观 地 代表 地 区 在 


出 


的 可 达 程度 。 区 域 可 达 性 评估 及 分 析 


化 ， 值 越 高 则 表明 可 达 性 较 好 ， 道 路 畅通 。 然 而 实际 上 
TIMEy 小 于 TM _ma 并 不 代表 Pi 到 Pj 的 所 有 旅行 中 符合 条 件 
t 的 旅行 时 间 都 小 于 7M _me , 也 不 意味 着 所 有 涉及 到 的 热点 a 
都 可 到 达 ， 但 式 (7) 却 对 Ac .7 累加 涉及 到 的 所 有 热点 4y ， 也 
就 是 这 种 情况 会 高 估 Ac __zr 的 值 近 而 高 估 Ac _;。 同 样 的 ， 
TMB 大 于 TM _me 也 不 代表 Pi 到 Pi 的 所 有 旅行 中 符合 条 件 t 的 
旅行 时 间 都 大 于 TM _mwx ， 也 不 意味 着 所 有 涉及 到 的 Qi 都 不 可 
到 达 ， 但 式 (7) 却 不 对 Ac _i 做 任何 累加 ， 这 种 情况 会 低估 
Ac _y 的 值 ， 进 而 将 误差 传递 至 Ac _，。 基 于 可 达 热 点 数 的 区 
域 可 达 性 判定 方法 的 主要 标准 为 可 达 热 点 数 的 多 少 ， 也 就 是 可 
达 热 点 数 越 多 可 达 性 越 好 ， 反 之 可 达 性 就 越 差 。 这 种 量化 方式 
没有 考虑 区 域 的 活动 特点 ， 忽 略 那些 可 达 性 本 身 较 好 但 是 旅行 
分 布 较 单一 致使 旅行 所 涉及 到 的 热点 数 4y 很 少 的 区 域 。 因 上 出 
这 会 低估 这 些 区 域 的 可 达 性 进而 对 道路 的 可 达 程 度 作出 错误 的 
判断 。 
本 文 则 利用 区 域 的 可 达 率 取代 传统 方法 的 可 达 热 点 数量 对 
其 可 达 性 进行 量化 。 区 域 Pi 在 特定 的 旅行 条 件 t 下 于 规定 的 旅 
行 时 间 范 围 TM_max 内 完成 的 旅行 的 数量 记 为 Acp _x， 即 


CY 


nAtype(t) 
Acp_i= > (tripiaa) (10) 
J=1 
tripjava 是 区 域 P 到 区 域 Pj 的 旅途 中 符合 条 件 t 且 旅行 时 间 
小 于 TM -me 的 旅行 的 个 数 。 


区 域 可 达 性 评估 计 首 先 要 计算 各 区 域 可 达 率 的 平均 值 ， 
就 是 城市 的 平均 可 达 率 ， 并 以 此 作为 阔 值 评估 区 域 可 达 性 。 
氏 于 平均 可 达 率 的 区 域 被 判定 为 可 达 性 较 差 的 区 域 ， 


你 距离 、 天 和 气 情况 等 多 种 条 件 而 得 出 ， 因 此 其 不 仅 能 
达 性 的 好 坏 ， 还 可 以 进一步 分 析 造 成 这 些 地 区 可 


由 于 本 文 模型 的 可 达 性 评估 结果 是 综合 交通 


原因。 首先 利用 OD 逢 阵 的 旅行 信息 可 求 出 区 域 
行 的 平均 旅行 速度 所 ， 即 


Vi DIS _real 
TIM Ejour 


区 域 间 所 有 旅行 的 平均 旅行 速度 作为 区 域 平均 旅 


counto Di 


VW 
六 2 (13) 
1 三 


countopi 


铬 平均 速度 正常 则 证 明 是 旅途 距离 太 长 导致 旅行 时 
ee 如 果 本 地 区 到 多 数 地 区 平均 速度 较 小 则 
度 慢 是 主要 影响 因素 。 


区 域 平均 速度 较 小 的 成 因 可 通过 旅行 条 件 的 对 比分 析 
。 例 如 从 表 1 中 可 以 得 知 天 气 情况 分 为 晴 、 雨 ， 可 以 通过 


量 的 方法 对 比 同一 时 段 两 种 不 同 天 气 下 同一 区 域 的 可 达 


若 两 者 相差 不 大 ， 则 可 排除 因 天 气 原 因 导 致 的 可 达 
] 达 率 低 ， 晴 天 可 达 率 正常 ， 则 该 区 域 行车 速度 


雨天 导致 路 况 不 佳 ， 最 终 致 使 可 达 率 降低 。 
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3 ”实例 研究 


为 了 进 


气象 数据 对 城市 


到 的 出 租车 GPS 行车 数据 为 沈阳 市 2016 年 3 月 1 
日 的 出 租车 GPS 行车 数据 。 气 象 数 据 为 沈阳 市 同期 各 
气象 数据 ， 其 中 主要 用 到 了 降水 量 信息 ， 以 此 


5 月 31 
个 气象 观测 站 的 


步 说明 本 文 所 提出 的 区 域 可 达 性 评估 方法 的 应 用 
过 程 ， 以 沈阳 市 城区 为 例 ,利用 沈阳 市 出 租车 GPS 行车 数据 及 


区 域 可 达 性 的 评估 进行 实例 研究 。 实 例 中 运用 
日 至 2016 年 


来 判断 旅行 条 件 中 的 晴天 和 雨天 。 


3.1 


出 租车 GPS 数据 清洗 


本 实例 所 用 到 的 沈阳 市 出 租车 GPS 行车 出 租车 GPS 原始 
数据 共 1925867139 条 数据 。 但 是 这 些 数 据 中 有 一 部 分 无 效 数 
据 。 因 此 首先 要 对 这 些 原始 数据 进行 清洗 。 对 于 原始 数据 的 数 


据 清洗 包括 删除 和 纠正 两 个 步骤 ， 每 一 步 清洗 后 的 数据 量 如 图 
3 所 示 。 
六 1.50E+09 
I 原始 数据 第 一 步 清洗 后 二 步 清洗 后 
图 3 数据 清洗 剩余 数据 量 
第 一 步 数据 清洗 的 目标 是 删除 坐标 明显 错误 的 数据 ， 所 以 


过 滤 条 件 为 GPS 数据 的 位 置 坐标 为 明显 不 在 沈阳 范围 
标 数据 (如 (0,0))。 第 二 步 清洗 的 


内 的 华 
目的 是 将 行车 速度 和 加 速度 


明显 不 符合 实际 值 的 坐标 点 进行 纠正 或 者 清除 ， 过 滤 条 件 Vmax 


取 值 为 130kmAh， 


加 速度 M_a 取 值 为 5m/s。 从 图 3 中 可 以 看 出 


第 一 次 清洗 过 程 
大 多 出 现在 夜晚 


中 删除 了 较 多 数据 ， 经 过 分 析 发 现 删除 的 数据 
， 也 就 是 大 多 出 租车 不 工作 的 时 间 段 ， 在 这 些 


时 间 段 内 数据 库 中 的 数据 被 错误 的 垃圾 数据 所 填补 。 第 二 步 纠 


正 主要 是 将 与 正 


常 速 度 与 加 速度 差距 不 大 的 坐标 点 纠正 并 且 删 


除 差距 较 大 的 坐标 点 ， 因 此 其 减少 的 数量 较 少 , 但 


于 GPS 系 


统 获 取 数 据 时 就 存在 误差 ， 所 以 经 过 纠正 的 数据 量 是 较 大 的 。 


3.2 ”确定 学 习 区 域 


本 文 将 整个 沈阳 市 按 46x46 的 网 格 区 域 来 划分 , 这 样 生 成 


了 2116 个 区 域 


， 在 此 基础 上 确定 学 习 区 域 可 以 缩小 学 习 的 范 
居 。 根 据 OD 矩阵 中 所 抽取 出 的 旅行 的 起 始 坐 标 与 终点 坐标 ， 


以 DBSCAN 方法 进行 热点 聚 类 0 ,， 搜 索 半 径 e 为 0.1 公里 , 包 


含 的 最 小 样本 数 为 15。 热 点 的 确定 如 图 4 所 示 ， 其 


中 所 有 的 黄 


点 是 聚 类 出 的 热点 地 区 。 按 上 述 DBSCAN 方法 进行 聚 类 所 有 


学 习 区 域 。 


的 旅行 信息 可 聚 类 出 4369 个 热点 。 整 个 沈阳 市 有 521 个 


单 晓 晨 ， 等 : 基 


图 4 热 


hinaxiv 合 作 期 刊 


@ . 
于 多 元 数据 的 城市 区 域 可 达 性 评估 模型 


点 聚 类 结果 


3.3 ”预测 学 习 区 域 可 达 率 并 分 析 可 达 率 低 的 区 域 


对 于 学 习 


条 件 下 的 综合 


件 


可 达 率 进行 计算 


区 域 的 可 达 率 计算 ， 本 文 首先 对 该 区 域 在 各 旅行 


。 然 后 再 计算 综合 可 达 率 较 差 的 


区 域 进行 各 旅行 条 件 下 的 可 达 率 ， 利 用 这 些 结 果 可 对 可 达 率 低 
的 地 区 进行 分 析 。 


在 区 域 综合 可 达 率 的 计算 过 程 中 首先 要 确定 出 平均 旅行 时 
间 范 围 的 上 限 TM _mx ， 本 文 T7M _mx 为 28mm 。 再 
下 的 Acp_it。 以 区 域 pi 为 例 


计算 各 旅行 条 
， 当 旅行 条 件 { 为 WMF 时 ， 区 


域 pi 到 各 区 域 的 可 达 率 如 图 $ 


各 种 旅行 条 件 下 区 域 pi 的 平均 可 达 率 如 图 


所 示 。 


oN e 
图 5 区 域 pi 到 各 区 域 的 可 达 率 示意 图 


6 所 示 。 


7 时 -9 9 时 -12 12 时 -1 16 时 -19| 19 H7 
5 | 


(a) 晴天 


7 时 -9| 9 时 -312 12 时 -16 16 时 -19| 19: H7 
mli ml | 


(b) 雨天 


图 6 各 条 件 下 区 域 pi 的 平均 可 达 率 
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图 6(a) 为 晴天 工作 日 与 非 工作 日 各 时 间 段 的 平均 可 达 率 。 从 图 8 所 对 比 结果 可 以 看 出 红 点 为 真实 值 ， 黑 点 为 本 文 算 
图 6 (b) 为 雨天 工作 日 与 非 工作 日 各 时 间 段 的 平均 可 达 率 。 由 ”法 ， 蓝 点 为 基线 法 。 其 中 本 文 算法 计算 的 区 域 间 平 均 旅行 时 间 
各 条 件 下 区 域 平均 可 达 率 可 计算 出 该 区 域 的 综合 可 达 率 。 全 部 与 真实 值 相 差 不 大 ， 而 基线 法 计算 的 时 间 结 果 总 体 上 偏 低 。 这 
521 个 区 域 的 综合 可 达 率 如 图 7 所 示 是 由 于 其 平均 旅行 时 间 是 基于 区 域 间 的 直线 距离 来 计算 的 ， 因 
此 其 计算 出 的 区 域 平均 旅行 时 间 相 对 于 真实 值 偏 低 。 而 基于 基 
_ 线 模型 区 域 可 达 性 的 研究 十 分 依赖 于 旅行 的 平均 时 间 ， 因 此 会 
二 3 导致 其 可 达 性 评估 准确 性 较 差 。 而 本 文 因 考 虑 旅行 的 实际 路 程 
， 3 人 3 从 而 得 出 一 个 较 基线 模型 更 准确 的 平均 旅行 时 间 。 
De 
“es, Mr ~ at es 之 
te 00 oe’ee 
图 7 所 有 学 习 区 域 的 综合 可 达 率 
图 7 中 黑色 虚线 为 沈阳 平均 综合 可 达 率 58.6%， 即 这 521 
个 区 域 的 综合 可 达 率 的 平均 值 。 本 文 以 城市 平均 综合 可 达 率 作 
为 区 域 可 达 性 的 评价 标 线 ， 可 达 率 高 于 标 线 则 评价 为 可 达 性 较 ee 
a 、 RS 图 8 平均 旅行 时 间 对 比 
好 ， 反 之 则 被 评价 为 可 达 性 较 差 。 通 过 这 样 的 方法 可 以 根据 量 
化 出 的 可 达 率 评价 出 每 个 区 域 的 道路 可 达 性 ， 为 道路 交通 规划 轮廓 法 采用 Ac _i 计算 可 达 的 热点 个 数 来 量化 区 域 可 达 性 ， 
提供 决策 依据 。 本 文 以 4cp 计算 能 够 完成 的 旅行 的 概率 并 以 此 量化 区 域 可 达 
从 图 7 中 可 以 看 出 ， 大 部 分 区 域 的 可 达 率 高 于 城市 平均 水 性。 因为 量化 策略 有 所 不 同 但 又 希望 对 两 者 的 量化 结果 进行 比 
平 ， 可 达 率 较 好 。 而 对 于 低 于 平均 水 平 的 可 达 性 较 差 区 域 可 做 较 , 因此 在 轮廓 测量 法 计算 出 区 域 可 达 热 点 数 Ac i 的 基础 上 除 
进一步 分 析 , 首先 对 各 旅行 条 件 下 各 区 域 的 平均 速度 进行 研究 。 ”以 城市 的 所 有 热点 则 可 以 得 出 一 个 相对 可 达 率 ， 并 以 此 和 本 文 


把 20 种 出 行 条 件 分 为 4 组 ，{WMEF, WNF,WAF,WEF,WBF}、 
{VMEF ,VNF, VAF, VEF, VBF}、 {VMR, VNR, VAR, VER,VBR}、 


{WMR, WNR, WAR,WER,WBR}。 根 据 式 (12) (13) 可 求 出 
间 平 均 速 度 Vi， 若 Vi;; 的 值 
不 慢 ， 畅 通 性 较 好 ， 那 么 造 
远 。 如果 Vi; 的 值 较 小 就 是 说 区 
造成 的 ， 通 过 对 比 各 条 件 下 
么 样 的 原因 造成 的 道路 拥 
宜 的 调整 改造 提供 决策 依据 。 


为 了 验证 本 文 提出 的 基于 多 元 数据 的 


不 低 , 则 意 


成 可 达 性 


差 


球 着 
的 原 


大 


区 域 


区 域 间 的 旅行 速度 
很 可 能 为 路 途 太 


域 的 可 达 性 较 差 是 道路 不 畅通 所 


塞 ， 利 用 分 析 上 


的 速度 可 以 发 现 是 哪 一 时 段 
的 信息 对 道路 


大 


为 什 


4 ”对 比 实验 
的 准确 率 ， 将 


因 地 制 


区域 可 达 性 评估 模型 


区 域 间 可 达 率 评价 结果 与 现 有 应 用 较为 普遍 的 基 
线 模型 和 传统 的 轮廓 测量 法 进行 对 比 。 对 


比 实验 数据 分 为 训练 


数据 和 测试 数据 两 种 。 将 沈阳 市 所 有 出 租车 2016 年 3 月 -2016 
间 可 达 性 评估 的 训练 


作为 测试 数据 


年 5 月 这 3 个 月 间 GPS 行车 数据 作为 
数据 ， 将 2016 年 6 月 1 日 


。 训 练 数据 用 于 各 种 算法 对 


义 


一 15 日 这 15 


测试 数据 则 用 于 来 生成 评估 的 


选取 某 一 


区 域 到 其 他 520 个 区 域 使 / 
出 的 方法 所 计算 的 平均 旅行 时 间 计算 和 真实 


对 比 ， 对 比 结果 如 图 8 所 示 。 


[ 实 值 。 


日 内 
区 域 可 达 性 的 记 


3 基线 模型 与 本 文 所 提 
实 平 均 旅行 时 间 进行 


的 GPS 行车 数据 


FE 佑 ， 


算法 进行 比较 。 本 文 算 法 与 轮廓 测量 法 计算 的 沈阳 市 521 个 学 
9 所 示 。 


习 


图 9 


从 图 


为 轮廓 测量 法 。 代 表 本 文 算法 的 呈 


区 域 综 合 可 达 率 和 真实 值 的 对 比如 医 


城市 综合 可 达 率 对 比 


9 中 可 以 看 出 红 点 为 真实 值 ， 黑 点 为 本 文 算 法 ， 蓝 点 
色 点 与 代表 


实 值 的 红色 点 


相差 较 小 ， 医 


此 从 量化 值 上 看 本 文 提出 的 可 达 利 率 计 算 模型 更 


接近 真实 值 。 


而 轮廓 测量 法 是 基于 


F 热 点数 的 统计 方法 ， 容 易 忽 


略 旅行 的 特性 而 导致 以 人 
布 情况 较为 分 散 。 


为 了 验证 基线 法 、 轮 廓 测量 法 


有 要 全 的 情况 出 现 ， 因 此 其 可 达 率 的 分 


以 及 本 文 提出 的 模型 在 评估 


真实 可 达 性 好 的 区 域 数 进行 对 | 


UL， 


驻 域 可 达 性 上 的 差异 ， 将 三 种 方法 判定 的 可 达 性 好 的 区 域 数 与 


对 比 结果 如 表 2 所 示 。 


录用 稿 


表 2 不 同方 法 的 区 域 可 达 性 评估 结果 


本 可 达 性 被 判定 为 ” 与 真实 值 判定 

0 好 的 区 域 数 一 致 的 区 域 数 
真实 值 320 320 
基线 法 396 212 
轮廓 测量 法 293 241 
本 文 提 出 的 方法 323 295 


表 2 可 以 看 出 本 文 提 出 的 方法 评估 出 可 达 性 好 的 区 域 个 
数 最 接近 真实 结果 ， 并 且 与 真实 情况 相 吻合 的 区 域 个 数 也 是 最 
多 的 ， 因 此 本 文 提出 的 方法 评估 结果 的 准确 性 较 好 。 而 基线 法 
评估 出 的 可 达 性 好 的 区 域 的 个 数 是 最 多 的 ， 但 是 与 实际 情况 相 
吻合 的 个 数 是 最 少 的 ， 因 而 基线 法 计算 的 准确 率 是 最 低 的 。 这 
是 因为 低估 旅行 时 间 从 而 影响 对 区 域 可 达 性 判断 进而 高 估 区 域 
可 达 性 造成 的 .轮廓 测量 法 得 到 的 可 达 性 好 的 区 域 的 个 数 较 少 ， 
轮廓 测量 法 的 结果 中 与 实际 情况 相 吻 合 的 个 数 相对 较 少 ， 所 以 
该 方法 的 准确 率 也 比较 低 。 甚 原因 是 在 轮廓 测量 法 中 参与 判定 
x 域 可 达 性 的 可 达 热 点 数 的 取 值 只 能 是 0 或 者 涉及 到 的 全 部 热 
点 数 aji， 这 样 就 无 法 避免 因 区 域 旅行 分 布 不 均等 旅行 特点 对 区 
或 可 达 性 判定 造成 的 误差 。 


[el 


5 ”结束 语 


本 文 针对 传统 城市 区 域 可 达 性 评估 方法 不 能 支持 多 元 数据 
分 析 、 量 化 方法 不 够 精确 等 问题 ， 以 出 租车 GPS 行车 数据 、 行 
车 时 段 、 天 气 等 多 维 数据 作为 区 域 可 达 性 的 评估 依据 ， 构 建 了 
一 种 支持 多 元 数据 的 城市 区 域 可 达 性 评估 模型 ， 在 此 基础 上 设 
计 了 基于 多 维 OD 矩阵 的 多 元 数据 区 域 可 达 率 计算 方法 ， 并 将 
可 达 率 作为 区 域 可 达 性 量化 标准 以 减 小 旅行 分 布 不 均等 旅行 特 


~ 


点 产生 的 误差 、 提 高 可 达 性 量化 准确 性 。 此 外 ， 本 》 
出 租车 GPS 数据 构建 了 一 套数 据 清洗 及 有 效 旅行 信息 提 
方法 ， 为 区 域 可 达 性 的 评估 竟 定 了 更 有 效 的 数据 基础 。 经 过 对 
比 实验 证 明 相对 于 其 他 方法 本 文 提出 的 基于 多 元 数据 的 可 达 改 
评估 模型 对 平均 旅行 时 间 计 算 的 准确 性 提高 了 18.5%~31.6%， 
区 域 综合 可 达 率 的 准确 率 提高 12.6%~35.5%， 区 域 综合 可 达 性 
评估 准确 性 提高 9.1%-37.8%。 
于 道路 交通 情况 复杂 多 样 ,影响 交通 条 件 的 因素 有 很 多 
下 一 步 研究 还 可 以 结合 更 多 数据 以 挖掘 出 更 多 影响 区 域 可 达 性 
的 信息 ， 如 道 车 流量 、 人 流量 及 出 租车 司机 驾驶 习惯 等 因素 。 
虽然 本 文 对 量化 方式 加 以 改进 ， 但 是 可 达 率 这 一 量化 方式 并 不 
能 达到 绝对 的 准确 ， 在 接 下 来 的 研究 中 可 以 以 可 达 率 为 蓝本 ， 
人 化 多 元 数据 下 可 达 率 的 计算 方式 ， 以 提高 最 终 区 域 可 达 性 评 
估 的 准确 性 。 
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